强化学习(RL)算法有望为机器人系统实现自主技能获取。但是,实际上,现实世界中的机器人RL通常需要耗时的数据收集和频繁的人类干预来重置环境。此外,当部署超出知识的设置超出其学习的设置时,使用RL学到的机器人政策通常会失败。在这项工作中,我们研究了如何通过从先前看到的任务中收集的各种离线数据集的有效利用来应对这些挑战。当面对一项新任务时,我们的系统会适应以前学习的技能,以快速学习执行新任务并将环境返回到初始状态,从而有效地执行自己的环境重置。我们的经验结果表明,将先前的数据纳入机器人增强学习中可以实现自主学习,从而大大提高了学习的样本效率,并可以更好地概括。
translated by 谷歌翻译
有限的线性时间逻辑($ \ mathsf {ltl} _f $)是一种强大的正式表示,用于建模时间序列。我们解决了学习Compact $ \ Mathsf {ltl} _f $ formul的问题,从标记的系统行为的痕迹。我们提出了一部小说神经网络运营商,并评估结果架构,神经$ \ mathsf {ltl} _f $。我们的方法包括专用复发过滤器,旨在满足$ \ Mathsf {ltl} _f $ temporal运算符,以学习痕迹的高度准确的分类器。然后,它离散地激活并提取由学习权重表示的真相表。此实话表将转换为符号形式并作为学习公式返回。随机生成$ \ Mathsf {LTL} _F $公式显示神经$ \ MATHSF {LTL} _F $尺寸,比现有方法更大,即使在存在噪声时也保持高精度。
translated by 谷歌翻译
将生成2D和3D形状的推断程序对于逆向工程,编辑等来重要。执行此任务的培训模型是复杂的,因为许多域不容易获得配对(形状,程序)数据,使精确的监督学习不可行。但是,可以通过损害分配的程序标签或形状分布的精度来获得配对数据。唤醒睡眠方法使用形状程序的生成模型中的样品来近似真实形状的分布。在自我训练中,形状通过识别模型,该模型预测被视为这些形状的伪标签的程序。与这些方法有关,我们介绍了一种新的自我训练变体,可以进行编程推断,其中程序伪标签与其执行的输出形状配对,避免了以近似形状分布的成本的标签不匹配。我们建议在单一的概念框架下对这些制度进行分组,其中培训是以伪标签或近似分布(PLAD)提供的最大似然更新。我们在多个2D和3D形状程序推理域中评估这些技术。与政策梯度加固学习相比,我们展示了Plad技术推断更准确的形状程序并更快地收敛。最后,我们建议将不同PLAD方法的更新结合在一个模型的训练中,并发现这种方法优于任何单独的技术。
translated by 谷歌翻译
这项研究的目的是评估历史匹配的潜力(HM),以调整具有多尺度动力学的气候系统。通过考虑玩具气候模型,即两尺度的Lorenz96模型并在完美模型设置中生产实验,我们详细探讨了如何需要仔细测试几种内置选择。我们还展示了在参数范围内引入物理专业知识的重要性,这是运行HM的先验性。最后,我们重新审视气候模型调整中的经典过程,该程序包括分别调整慢速和快速组件。通过在Lorenz96模型中这样做,我们说明了合理参数的非唯一性,并突出了从耦合中出现的指标的特异性。本文也有助于弥合不确定性量化,机器学习和气候建模的社区,这是通过在每个社区使用的术语之间建立相同概念的术语并提出有希望的合作途径,从而使气候建模研究受益。
translated by 谷歌翻译